一 . 概述

高斯混合模型(Gaussian Mixture Model):为单一高斯概率密度函数的延伸,用多个高斯概率密度函数(正态分布曲线)精确地量化变量分布,是将变量分布分解为若干基于高斯概率密度函数(正态分布曲线)分布的统计模型。

最大期望算法(Expectation-maximization algorithm,又译期望最大化算法):在统计中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。

二 . 算法过程

  1. 初始化k个高斯分布
  2. 将数据软聚类成我们初始化的高斯函数(E步骤或期望步骤)
  3. 重新估计高斯(最大化步骤或M步骤)
  4. 估计对数似然来检查收敛
  5. 如果收敛则输出结果,如果不收敛则重复步骤2

三 . 数学推导

四 . sklearn 示例

1
2
3
4
5
6
from sklearn import datasets, mixture

x = datasets.load_iris().data

gmm = mixture.GaussianMixture(n_components=3)
cluster = gmm.fit_predict(x)